[論文筆記] Seeing Out of tHe bOx - End-to-End Pre-training for Vision-Language Representation Learning

Paper Information

原文網址：https://arxiv.org/abs/2104.03135
研究機構：USTB、MSRA
發表時間：CVPR 2021

Introduction

自從 BUTD [1] 提出後，大部分的 V+L（Visual and Language）model 都採用 object detector 來抽取圖片特徵，然而這種 region-based 的方法卻存在三大缺點：
- 這些特徵只關注 bbox 裡的資訊，bbox 外的則容易被忽略。
- 這些特徵會受到 pre-defined categories 的限制。
- 受 object detector 的影響，這些特徵會有 low quality、noise、oversampling、rely on large-scale boxes annotation data 等問題。
好在 Facebook 於 2019 提出了 GridFeats [2]，拋棄 object detector 的曙光才得以到來。除了緩解上述問題外，由於不再需要 object detector，也得以讓 V+L 回歸 E2E（End-to-End）。本文所提出的方法 SOHO（Seeing Out of tHe bOx）就是其中一個 E2E 模型。
pre-training 的部分，除了常用的 MLM（Mask Language Modeling）、ITM（Image Text Matching）外，作者還提出了一個叫 MVM（Mask Visual Modeling）的方法。
本文貢獻：E2E、MVM。

Methods

Pre-training

SOHO 的 pre-training 架構如 Figure 2 所示。
- text 的部分參照 BERT 的做法做 embedding。
- image 的部分先經過 resnet-101（trainable visual encoder）後，丟到作者提出的 vd-based embedding（vd：visual dictionary）。
- 最後將 text embedding、vd-based embedding 丟到 VL-BERT [3]（cross modal transformer）做整合，完成 pre-training。
pre-training 任務總共有三：MLM、ITM 以及作者提出的 MVM。
- MLM、ITM 就跟其他人的做法一樣，沒什麼好講的，這裡只介紹 MVM。
MVM：
- 對於 resnet-101 的輸出，$v_i$，找出 vd 中與之最相近的向量，$d_{h_i}$。
- 則 $d_{h_i}$ 為 $v_i$ 的 vd-based embedding；$d_{h_i}$ 的編號 $h_i$ 為 $v_i$ 的 label。
  $$
  h_i = \arg\min_{j} ||v_i - d_j||_{2} \
  f(v_i) = d_{h_i}
  $$
  - $d_j$：vd 中的向量。
  - $f$：vd mapping。
- $d_j$ 是會隨時間更新的，更新方式如下：
  $$
  \hat d_{j} = \gamma * d_{j} + (1 - \gamma) * \frac{\sum_{h_i = j} v_i}{|f^{-1}(j)|}
  $$
  - $\gamma \in [0, 1]$
  - $|f^{-1}(j)|$：inverse mapping group size，也就是選到同一個 $d_j$ 的 $v_i$ 的個數。
- MVM 的作法與 MLM 類似，就是隨機蓋掉一些 vd-based embedding，然後模型要去預測這些被蓋掉的特徵的 label。
  $$
  L_{MVM} = -E_{(W, f(V)) \sim D} \log p(h_i | W, f(V)_{\backslash j})
  $$
  - $L_{MVM}$：MVM loss
  - $D$：dataset
  - $W$：word embedding
  - $f(V)_{\backslash j}$：沒被蓋掉的 vd-based embedding
在做 pre-train 時，1 張 image 會被分配到 4 個 sentence，其中 2 句是 positive pair，另外 2 句是 negative pair。只有在 positive pair 上才會做 MLM 跟 MVM。

Fine-tuning

作者將 SOHO fine-tune 到 4 種任務上：TR／IR、VQA、NLVR、VE。
- TR／IR：image-to-text retrieval、text-to-image retrieval
- VQA：visual question answering
- NLVR：natural language for visual reasoning
- VE：visual entailment
但目前（2021／6／29）只釋出 VQA 的 code 而已，其他都還沒。

Experiments & Results

Dataset

pre-training dataset 與 fine-tune dataset 如 Table 1 所示。
值得注意的是，跟其他 2020 年 V+L 模型比起來 SOHO 的 pre-train dataset 已經算小了。只用 MSCOCO 跟 VG 而已。

Downstream Tasks and Results

在處理 downstream task 時，作者發現使用 visual representation（resnet-101 output，$v$）的效果會比 vd-embedding（$d$）好。因此後續的實驗都是使用 visual representation。
TR／IR、VQA、NLVR、VE 的結果如 Table 2 ~ 6 所示。

VQA 的部分（Table 4），即使在 pre-train dataset 比較少的情況下，SOHO 的效能一就可以比架構類似的 UNITER [4] 好個 0.5，可見 E2E、MVM 的功效還是粉不錯的。
- UNITER 的 pre-train dataset：MSCOCO + VG + CC + SBU。

Ablation Study

為了驗證 vd 的貢獻，作者對其它做了 ablation study，結果如 Table 7 所示。
可以看到 vd 的加入確實是能提升效能的。並且作者還發現 vd size（$d_j$ 的維度）落在 2048 或 4096 時效果最好。
- vd size 大一點可以學到更 fine-grained 的資訊，但太大反而會讓模型喪失總結能力（abstraction）。